Uvod

V projektu je analiza nesreč z rekreativnimi plovili. Deskriptivno so prikazane okoliščine nesreč, analitično pa je vključena še linearna regresija števila smrtnih nesreč v oziru na število registriranih plovil in povprečnega prihodka državljana ZDA. V shiny je še spletna aplikacija, ki prikazuje število nesreč v oziru na okoliščine nesreče.

Dodano je še nekaj splošno globalnih in lokalnih podatkov o regati Volvo ocean race (zgolj za potrebe predmeta, ne ker bi dodalo kakršnokoli vrednosti prvotni ideji nesreč).

Ta datoteka (v obliki notebook) je namenjena hitrejšemu zagonu. V njej je izpuščen en graf in en interaktivni graf. Za ogled celotne datoteke pojdi na LINK


Spletna povezava do virov podatkov in grob opis podatkov izvlečenih tabel:

2020 Recreational boating statistics

Pihodek v ZDA v letu 2020

The ocean race     The ocean race leta 1985/86

  1. TABELA: (Nesreče v posameznih mesecih)
    1. Mesec (Faktor)
    2. Smrtne nesreče (Število)
    3. Nesmrtne nesreče (Število)
    4. Vse nesreče (Število)
    5. Procent smrtnih nesreč (Število)
    6. Število smrti (Število)
  2. TABELA: (Nesreče v posameznih letih)
    1. Leto (Število)
    2. Smrtne nesreče (Število)
    3. Nesmrtne nesreče (Število)
    4. Število vseh nesreč (Število)
  3. TABELA: (Nesreče v posamezni zvezni državi)
    1. Zvezna država (Niz)
    2. Vse nesreče (Število)
    3. Smrtne nesreče (Število)
    4. Nesreče s poškodbami (Število)
    5. Nesreče le materialne škode (Število)
    6. Število smrti (Število)
    7. Število ponesrečencev (Število)
    8. Škoda v USD (Število)
  4. TABELA: (Število registriranih plovil)
    1. Leto (Število)
    2. Število smrti (Število)
    3. Število registriranih plovil (Število)
    4. Delež smrtnih izidov (Število)
    5. Število smrti v plovilih z motorjem (Število)
    6. Število registriranih motornih plovil (Število)
    7. Delež smrnih izidov z motornim plovilom (Število)
  5. TABELA: (Prihodek državljana ZDA)
    1. Leto (Število)
    2. Povprečni prihodek (Število)
  6. TABELA: (Vzrok nesreč)
    1. Vzrok (Niz)
    2. Število nesreč (Število)
    3. Število smrti (Število)
    4. Število poškodb (Število)
    5. Tip nesreče (Niz)
  7. TABELA: (Pregled regat Volvo ocean race)
    1. Leto (Število)
    2. Klasa (Niz)
    3. Število kol (Število)
    4. Število kratkih podregat (Število)
    5. Število prijavljenih ekip (Število)
    6. Kraj začetka (Niz)
    7. Kraj konca (Niz)
    8. Zmagovalna barka (Niz)
    9. Zmagovalni skipper (Niz)
  8. TABELA: (Pregled regate Volvo ocean race leta 1985/86)
    1. Kolo (Niz)
    2. Datum začetka (Datumski vektor)
    3. Kraj začetka (Niz)
    4. Kraj konca (Niz)
    5. Razdalja podregate (Število)
    6. Zmagovalna ladja (Niz)
    7. Zemlj. dolžina začetka (Število)
    8. Zemlj. širina začetka (Število)
    9. Zemlj. dolžina konca (Število)
    10. Zemlj. širina konca (Število)

Vizualizacija podatkov

Na zemljevidu ZDA je prikazano število smrtnih nesreč glede na posamezno zvezno državo.

Graf števila smrti v posameznem mesecu (v letu 2020)

Graf števila smrti v posameznem letu

Za dodatek si oglejmo malo regate

Graf, ki prikazuje povzetek regat “Volvo ocean race” v letih 1973-2018. Sam graf ne pove kaj dosti, osi pa so tudi prisilno postavljene.


Regresijska analiza

Grafa števila registriranih plovil in prihodka na prebivalca, ki bosta naši pojasnjevalni količini v regresijskem modelu.

Spodaj vidimo rezultat regresijske analize. Postavimo hipotezo \(H^{(1)}_0: \beta_1 =0\) in spotoma \(H^{(2)}_0: \beta_2 = 0\), kjer se \(\beta_1\) nanaša na število registriranih plovil, \(\beta_2\) pa na prihodek. Iz izhoda vidimo, da \(|t_1| < 1.96, |t_2| > 1.96\), zato ničelno hipotezo za registrirana plovila lahko zavrnemo.

Pod izhodom si oglejmo še diagnostiko predpostavk linearne regresije. \(R^2\) je zelo majhen, kar ni dober znak. Rdeča črta ostankov proti fittanim vrednostim je sicer dobra (ravna okoli 0), a nas motijo same vrednosti (ta preveri samo linearnost podatkov). Drugi in tretji graf sta (morda presentljivo) zadovoljiva.

## 
## Call:
## lm(formula = Smrti ~ Prihodek + Registrirane, data = registracije)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -86.357 -20.868  -8.334  15.955 100.969 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  -9.249e+02  8.168e+02  -1.132    0.273  
## Prihodek      3.802e-03  3.062e-03   1.241    0.231  
## Registrirane  1.166e-04  5.633e-05   2.070    0.054 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 48.68 on 17 degrees of freedom
## Multiple R-squared:  0.2679, Adjusted R-squared:  0.1817 
## F-statistic:  3.11 on 2 and 17 DF,  p-value: 0.07065

Omenimo, da bi lahko pri linearni regresiji eliminirali trend pri prihodku na prebivalca, da bi to spremenljivko logaritmirali. S tem pristopom ničelne hipoteze tudi za število registriranih plovil ne moremo zavrniti.


Clustering